其他
Groq露峥嵘,可能同时挑战英伟达和谷歌 | 笔记
每张 Groq 卡的内存为230MB
对于 LLaMA 70b 模型,假设使用 int8 量化,并完全忽略推理过程中的内存消耗,所需的最少卡片数量为 305 张。实际上需要更多,有报告指出需要 572 张卡片,因此我们将基于 572 张卡片进行计算。
每张 Groq 卡的价格为 20,000 美元,因此,购买 572 张卡片的成本为 1144 万美元。当然,由于销售策略和规模效应,每张卡的价格可能会低得多,但现在让我们先按照标价计算。(据其后续补充,每张卡的BOM应该在1000-2000美元之间——编者注 )
对于 572 张卡片,每张卡的平均功耗为 185W,不包括外围设备的总功耗为 105.8kW。(注意,实际消耗会更高)
目前,数据中心每月每千瓦的平均价格约为 200 美元,这意味着年电费为 105.8 * 200 * 12 = 25.4 万美元。
基本上,使用 4 张 H100 卡可以实现 Groq 一半的性能,这意味着一个 8 卡 H100 盒子在能力上大致相当于上述配置。一个 8 卡 H100 的名义最大功率为 10kW(实际约为 8-9 kW),因此年电费为 24,000 美元或略低。
如今,一个 8 卡 H100 盒子的价格约为 30 万美元。
因此,如果运行三年,Groq 的硬件购买成本为 1144 万美元,运营成本为 76.2 万美元。对于一个 8 卡 H100 盒子,硬件购买成本为 30 万美元,运营成本为 7.2 万美元或略低。
它的芯片+推理服务,端到端的AI模式,也是一些大模型公司正在考虑的,OpenAI推出了Sora,很快也将推出GPT-5,但其算力正严重影响其业务的进一步发展,它在推理延迟方面、以及大量并发调用其API服务方面,都需要更强大高效的算力。奥特曼从去年底就一直在忙乎融资造芯片,故事越讲越大,已经达到了7万亿美元。 大模型推理等AI专用加速芯片,也是英伟达正在努力的方向。GPU是数据中心的通用芯片,但是在一些专用的领域,它并不是效率最高的。目前各大科技巨头、一些芯片设计独角兽企业,都在研发更具效率、部分替代GPU的芯片。英伟达也已经意识到这一点,建立起了定制芯片的业务部门。 它是GPU的一个重要补充,它让面对紧缺昂贵的GPU芯片的初创企业有了一个新的选择。据测算,目前AI初创企业融到的钱,其中60%到75%花到GPU上,这是一家独大卡脖子的局面。 谷歌出身的Groq团队,做出的对话框速度之快,极大改变了推理的体验,它让人们进一步思考接下来搜索的前途和发展方向。